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摘 要 : 目前 太阳 高 分 辨 图 像 重建 往往 采用 斑点 干涉 术 和 斑点 掩 模 法 重建 目标 的 模 和 相位 ， 


由 于 分 组 分 块 数据 量 大 ， 算 法 复杂 


等 因素 ， 难 以 满足 实时 重建 的 要 求 。 为 了 能 缓解 数据 处 理 的 


压力 ， 在 现 有 在 单 组 分 块 数据 CPU/GPU 混 合计 算 方 法 的 基础 上 ， 提 出 通过 多 进程 将 多 组 分 块 数 
据 分 配 到 GPU 上 同时 并 行 处 理 的 方法 。 实 验 表明 ， 基 于 多 进程 并 行 加 速 方法 可 提高 CPU 和 GPU 
资源 利用 效率 ， 使 GPU 能 同时 处 理 多 组 分 块 数据 ， 可 显著 提升 图 像 分 块 处 理 的 速度 ， 加 速 比 达 
4.7 左 右 ， 相 关 研 究 可 为 天 文 数据 并 行 化 处 理 提供 借鉴 参考 。 
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1 引言 


太阳 是 影响 人 类 活动 的 最 大 一 颗 恒星 ， 尤 其 是 太阳 活动 对 地 球 环境 、 气 候 和 天 和 气 的 影响 
等 。 由 于 太阳 光线 在 穿 过 地 球 大 气 层 时 受到 大 气 消 流 的 影响 会 产生 波 前 误差 ， 使 得 光路 发 生 侦 


转 ， 观 测 的 太阳 图 像 出 现 不 同 程度 的 偏 移 、 拌 动 、 模 糊 等 形态 ， 
质量 下 降 *。 为 了 消除 大 气 满 流 对 望远镜 成 像 结 果 的 有 影响， 通常 采 


导致 地 基 式 望远镜 的 观察 图 像 


以 及 图 像 重 建 技术 等 方式 获取 太阳 高 分 辨 图 像 。 


过 大 量 的 短 曝光 图 像 重 建 出 太 


法 达到 实时 重建 的 需求 。 


近年 ， 国 内 外 在 太阳 高 分 辨 


目前 图 像 重建 技术 常用 的 算法 主要 有 相位 差 法 、 多 帧 盲 反 卷 积 法 、 斑 点 干涉 术 、K-T 算 
法 、 斑 点 掩 模 法 、 人 简单 位移 县 加 法 、 友 代位 移 倒 加 法 以 及 选 帧 位 移 受 加 法 等 。 这 些 算 法 都 是 通 


空间 望远镜 、 自 适应 光学 


高 分 辨 图 像 , 但 往往 因为 处 理 的 数据 量 很 大 、 算 法 复杂 导致 无 


图 像 重建 算法 并 行 化 研究 方面 做 了 很 多 工作 ， 并 获得 一 定 的 加 


速 比 。Denker 等 人 在 BBSO 基于 双 节 点 集群 ， 提 出 一 种 帧 选择 和 斑点 掩 模 法 的 并 行 计算 方 法 ， 


采用 多 线程 方法 在 57s 内 完成 重建 一 张 256X256pixel AR. Friedrich Wöger 等 人 使 用 ATST, 


利用 改写 于 KISIP 的 算法 , 采用 GPU 
pixel 子 块 的 相位 。Li Xuebao 
pixel)。 采 用 OpenMP 方法 实现 了 一 组 子 块 图 


Ka 


次 处 理 单 组 分 块 数据 , 实现 4.2s 内 重建 225 个 128X128 
5 等 人 从 NVST 的 TiO 通道 中 选取 一 组 子 块 
像 的 并 行 化 , 重建 单 帧 236X256 pixel 的 子 块 图 像 ， 
运行 时 间 减 少 至 2.7s， 获 得 2.5 倍加 速 . 郑 艳 芳 ”等 人 采用 GPU 的 CUDA 构架 对 光 球 TiO 通道 


像 (100X256 X256 


中 的 一 组 子 块 (100 X 256X256 pixel) 实现 并 行 化 ， 基 于 CUDA 方法 重建 单 组 子 图 像 组 的 运行 
时 间 减 少 到 大 约 0.7s。 宣 经 纬 ”等 人 基于 CUDA 并 行 计算 架构 ， 在 斑点 掩 模 算法 中 实现 单个 子 
块 GPU 内 的 并 行 化 ， 采 用 CUDA 并 行 方法 比 纯 CPU 上 运行 的 串 行 算法 加 速 比 达 7。 
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综 上 所 述 ， 太 阳 高 分 辨 图 像 重建 在 采用 斑点 掩 模 法 下 的 图 像 并 行 化 研究 方面 已 经 取得 一 定 
的 研究 成 果 , 但 大 多 还 局 限于 单纯 的 CPU 或 GPU 加 速 , 而 且 GPU 一 次 只 能 处 理 一 组 分 块 数据 ， 
CPU/GPU 的 并 行 化 能 力 没有 完全 发 挥 出 来 。 如 何 将 多 组 分 块 数据 分 配 到 GPU 上 同时 并 行 处 理 ， 
进一步 提高 CPU 和 GPU 的 并 行 计 算 能 力 和 资源 效率 ， 本 文 提出 了 基于 多 进程 并 行 加 速 太阳 高 
分 辨 图 像 重 建 方法 。 

2 太阳 高 分 辨 图 像 重 建 方法 

一 米 新 真空 太阳 望远镜 (New Vacuum Solar Telescope, NVST)” 坐落 在 抚 仙 湖 昱 ， 主 要 的 观 
察 波段 有 : G-band (4305 A). Ha (6562.8 A), TiO (7058 A). NVST 太阳 高 分 辨 图 像 重 建 使 用 了 
两 个 级 别 : Levell 级 别 是 采用 位 移 辣 加 法 来 重建 色 球 图 像 ，Levell+ 则 是 采用 斑点 掩 模 法 重建 光 
球 或 色 球 图 像 。Levell+ 级 别 计算 复杂 度 比 Levell 高 ， 但 Levell+ 级 别 在 视 宁 度 好 得 时 候 重建 的 
图 像 质量 更 好 、 信 品 比 更 高 。 

NVST Levell+ 级 别 太 阳 高 分 辨 图 像 重 建 流程 : 图 像 预 处 理 ， 图 像 初 对 齐 ， 视 宁 度 估计 ， 图 
像 分 块 处 理 ， 子 块 拼接 ， 其 中 图 像 分 块 处 理 主要 采用 斑点 干涉 术 和 斑点 掩 模 法 重建 太阳 高 分 辩 
图 像 的 模 和 相位 。 图 像 分 块 处 理 包含 若干 处 理 环节 ， 其 中 相位 递 推 环节 由 于 数据 量 大 、 计 算 复 
aR, 并 且 需 要 考虑 多 个 递 推 路 径 的 整合 ,使 得 图 像 分 块 处 理 在 Levell+ 级 别 的 重建 流程 中 最 为 耗 
时 ， 因 此 子 块 处 理 的 好 坏 严 重 影响 重建 的 效果 和 时 效 ， 其 中 最 关键 过 程 描述 如 下 ; 


2. 1 振幅 重建 

在 满足 等 坚 区 情况 下 ， 短 曝光 像 是 目标 和 系统 的 点 扩展 函数 的 卷 积 

i(x, y) =o, y) ® p(x, y) (1) 
上 式 @ 为 卷 积 符号 ， 时 域 中 的 卷 积 对 应 于 频 域 中 的 乘积 。 上 式 在 频 域 中 满足 : 

IT(u,v)= O(u,v)* P(u,v) (2) 
HH I (u,v) + O(u,v) ，P(u,v) 分 别 是 时 域 中 对 应 项 的 傅 里 叶 变换 
功率 谱 统 计 为 : 

(I vf) = (ouv) (Pu) (3) 


其 中 人 ) REI, (LP vy?) 就 是 SITF. 其 中 SITF 可 以 有 两 各 方法 得 到 ，!. 观测 目标 


的 近 参 考 星 多 幅 斑 点 图 的 平均 功率 谱 建 模 计算 得 到 SITF。2. 使 用 谱 比 法 计算 大 气相 干 长 度 九 ， 
从 而 使 用 功率 谱 退 卷 积 得 到 SITF。 

2. 2 相位 重建 

目标 斑点 图 的 三 重 相关 为 ; 


i? (x,x) = | i(x J)ix Ji ,x dx (4) 
目标 斑点 图 的 三 重 自 相 关 的 傅 里 时 变换 有 : 
I? (u,v) = T(u)I(v)I(-u, -v) (5) 


其 中 7(w) FE U(X) 的 傅 里 叶 变 换 。& 和 v 是 二 维 空间 频率 。 


目标 斑点 图 


的 平均 重 
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其 中 , 《> 为 取 


(u,v) (PP(u, v)) 
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在 得 到 平均 重 谱 后 ， 由 低频 到 高 频 的 相位 元 
3 多 进程 并 行 加 速 方 法 
3. 1 CPU/GPU 混合 计算 方法 


弟 


逐步 


为 了 满足 整个 视 场 线性 空间 平移 不 变性 ， 需 要 把 预 处 理 
上 的 子 块 合 并 成 子 块 组 。NVST Level 
有 并 行 加 速 方法 大 多 还 局 限于 CPU/GPU 混合 计算 方法 ， 即 GPU 一 次 只 能 处 到 
基于 CPU/GPU 混合 
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同 子 块 组 之 间 依 然 还 是 串 行 计算 。 
IRo 
CPU 


Image is segmented 
into sub-block groups 


100-frame sub-block 
groups 


Phase recursion 


图 1 基于 CPU/GPU 混合 计算 方法 的 图 像 分 


REPI. (PO (u,v) 为 平均 油 点 拖 模 法 传递 函数 。 
恢复 其 目标 斑点 图 全 部 相位 。 


和 初 对 齐 后 的 图 像 分 割 
11+ 级 别 的 太阳 高 分 昼 
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Figure 1 Image block processing flow based on CPU/GPU hybrid computing method 


按照 等 坚 区 分 块 后 ， 每 一 个 子 块 组 都 合 有 多 
计算 比较 复杂 适合 在 CPU 端 完成 外 ， 其 他 都 是 


Wir Ee, EMD EE 


个 子 块 组 时 ， 除 了 相位 递 推 


E GPU 端 完成 。 相 位 递 


需要 | 


SEAE 
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从 低频 相位 点 到 高 频 相 位 点 依次 遍历 全 部 有 效 的 相位 点 。 每 个 相位 点 都 是 由 多 个 相位 点 和 对 应 
的 重 谱 计 算得 到 ， 计 算 复 杂 度 高 。 在 遍历 的 过 程 中 ， 相 位 递 推 伴随 着 大 量 的 逻辑 判断 ， 导 致 适 
合 在 CPU 端 处 理 。 
虽然 以 上 方法 比 纯 CPU 端 在 图 像 分 块 串 行 处 理 的 处 理 时 间 少 ， 但 这 种 方法 存在 两 个 问题 
一 是 子 块 组 间 的 处 理 是 依次 进行 的 〈 串 行 )， 在 GPU 处 理 时 ，CPU 存在 空闲 状态 ，CPU 利用 率 
不 高 ; 二 是 GPU 上 一 次 只 处 理 一 个 子 块 组 ，GPU 利用 率 不 高 。 为 此 ， 本 文 提 出 了 基于 多 进程 
对 图 像 分 块 处 理 并 行 加 速 方法 。 
3. 2 多 进程 并 行 加 速 方法 

针对 以 上 现 有 方法 存在 的 问题 ， 引 入 多 进程 ， 提 升 CPU 利用 率 ， 并 且 通 过 多 进程 让 GPU 
处 理 更 多 的 子 块 组 ， 同 时 提高 CPU 和 GPU 的 并 行 化 处 理 能 力 。 将 竺 处理 多 帧 图 像 分 割 成 很 多 
子 块 后 ， 子 块 合并 为 若干 子 块 组 ， 把 所 有 的 子 块 组 加 入 任务 列表 中 。 每 个 进程 都 顺序 选择 任务 
列表 中 的 一 个 子 块 组 ， 多 个 进程 同时 操作 GPU 并 行 处 理 多 组 子 块 组 。 基 于 多 进程 并 行 加 速 方法 
的 图 像 分 块 处 理 流 程 如 图 2 所 示 。 
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图 2 基于 多 进程 并 行 加 速 方法 的 图 像 分 块 处 理 流 程 


Figure 2 Image block processing flow based on multi-process parallel acceleration method 
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多 进程 并 行 加 速 方 法 的 图 像 分 块 处 理 流程 如 下 : 

、 创 建 任务 列表 。 创 建 并 初始 化 列表 ， 将 图 像 分 块 后 的 子 块 组 加 入 到 任务 列表 中 。 

、 创 建 进程 池 。 创 建 并 初始 化 一 个 进程 池 ， 并 在 进程 池 中 可 以 添加 适当 的 子 进程 数量 。 
、 分 配 进程 任务 。 由 主 进程 依次 把 任务 列表 中 的 任务 分 配给 处 于 空闲 状态 下 的 子 进 程 。 
、 传 递 参数 。 将 处 于 CPU 端的 任务 数据 传递 到 GPU 端 ， 以 及 子 块 组 处 理 过 程 需 要 的 其 他 


Ae 一 


参数 。 

5、 处 理子 块 组 。 进 程 池 开 启 多 少子 进程 ， 就 有 多 少 个 子 块 组 同时 并 行 计算 。 子 块 对 齐 、 模 
的 重建 、 平 均 重 谱 的 计算 以 及 初始 相位 的 计算 等 过 程 都 是 在 GPU 端 并 行 完 成 。GPU 端 完成 初 
始 相位 计算 后 ， 把 初始 相位 数据 传递 给 CPU 端的 相应 子 进程 开始 相位 递 推 ， 完 成 相位 递 推 后 ， 
子 进 程 将 相位 数据 从 CPU 端 传递 到 GPU 端 。 最 后 进行 模 和 相位 的 合成 。 

6、 再 次 分 配 任务 。 每 个 处 理 完 子 块 组 后 处 于 空闲 状态 的 子 进程 ， 并 不 会 被 销毁 而 是 返回 进 
程 池 ， 进 程 池 将 空闲 子 进 程 信息 反馈 给 主 进程 ， 若 子 块 组 任务 列表 仍 有 待 执行 的 子 块 组 ， 主 进 
程 将 待 执行 的 子 块 组 分 配给 进程 池 中 的 空闲 子 进程 。 

7、 关 闭 进程 池 。 主 进程 反复 检测 子 块 组 任务 列表 ， 当 任务 列表 中 没有 待 处 理子 块 组 时 ， 并 
等 待 所 有 子 进程 执行 完毕 ， 进 程 池 将 所 有 空子 进程 信息 反馈 给 主 进程 ， 释 放 所 有 子 进 程 并 关 
闭 进程 池 。 

由 上 述 过 程 可 知 ， 各 个 子 块 组 处 理 相 互 独立 、 互 不 影响 ， 进 程 池 中 每 个 子 进程 处 理 相应 的 
子 块 组 同时 并 行 运行 。 子 块 对 齐 、 模 的 重建 、 初 始 相 位 计算 以 及 模 和 相位 的 合成 都 是 由 多 个 子 
进程 在 GPU 端 并 行 完成 的 , 但 每 个 子 块 组 的 相位 递 推 是 由 相应 的 子 进程 在 CPU 端 并 行 计算 的 。 
值得 注意 的 时 ， 在 创建 和 初始 化 进程 池 时 ， 进 程 并 不 是 越 多 越 好 ， 创 建新 进程 会 耗费 系统 资源 ， 
所 以 进程 池 中 只 能 添加 合适 数量 的 子 进程 ， 其 数量 取决 于 CPU 和 GPU 的 资源 能 力 。 此 外 ， 为 
避免 不 必要 的 系统 开销 ， 并 不 立即 撤销 完成 任务 的 子 进程 ， 而 是 在 任务 列表 还 有 任务 时 选择 进 
程 复 用 ， 再 次 分 配 任务 。 

下 面 以 Python 为 例 ， 其 实现 方法 如 下 。 多 进程 管理 Multiprocessing 模块 提供 了 Pool 类 ， 
通过 import 命令 导入 Multiprocessing 模块 ， 使 用 multiprocessing.Pool 函数 导入 Pool 类 。 创建 并 
初始 化 任务 列表 blocklist =[]， 将 子 块 组 加 入 到 任务 列表 中 。 设 置 指定 的 工作 子 进程 数目 (num)， 
使 用 pool=Pool(num), ， 按 照 指 定数 量子 进程 创建 和 初始 化 进程 池 ， 供 用 户 调 用 。 使 用 
poolapply_asyncO、poolLmapO、poolapplyO0、poolmap_async0 等 方法 ， 调 用 子 块 组 处 理 函 数 并 
传递 子 块 组 任务 列表 参数 , 然后 提交 给 进程 池 。 当 新 子 块 组 任务 请 求 提 交 到 进程 池 时 , 如 果 Pool 
不 满 ， 则 会 创建 一 个 新 进程 来 执行 该 任务 请 求 ， 如 果 Pool 满 了 ， 告 知 请 求 等 待 。 通 过 Cupy 模 
块 中 cupy.asarray() 方 法 和 cp.asnumpy0 方 法 来 进行 CPU 端 和 GPU 端 数 据 传 输 。 每 个 子 块 组 计算 
完成 使 用 列表 收集 结果 。 当 任务 列表 没有 待 处 理子 块 组 时 ， 使 用 pool.close0 方 法 ， 使 进程 池 不 
再 接受 新 的 任务 ， 当 所 有 子 块 组 计算 完成 后 ， 工 作 进 程 会 退出 。 最 后 使 用 pool.join0 方 法 ， 等 待 
进程 池 中 所 有 的 子 进程 结束 完毕 结束 子 进 程 ， 返回 主 进程 。 关键 过 程 的 代码 实现 如 下 表 1 所 示 。 

表 1 关键 过 程 的 代码 实现 


Table 1 Code implementation of key processes 
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Code implementation of key processes 


from multiprocessing import Pool 
import cupy as cp 
def block_process(cubesub): 
cuberc_gpu=cp.asarray(cubesub) # Transfer subblock groups from the CPU to the GPU 
# Sub-block alignment, Reconstruction of amplitude s, Calculation of bispectrum, Initial phase 
phalxp_cpu =cp.asnumpy(x) # Phase recursion transfers data X from the GPU to the CPU 
# phase recursion 
phatmp_gpu=cp.asarray(y) 
# Amplitude and phase synthesis 


if ___name__ =='__main_' 
blocklist =[] # Create and initialize task lists 
blocklist.append(cubesub) # Add subblock group tasks to the task list 
num=n # Set the number of n sub-processes 
pool = Pool(num) # Create and initialize process pools 


for i in blocklist: 
pool.apply_async(block_process,(i,)) | # Commit functions and arguments to the process pool 
pool.close() # Close the process pool and accept no more tasks 


pool join() # Block waits for all tasks to complete before continuing 

4 结果 和 分 析 
4. 1 实验 环境 

硬件 : Intel(R) Core(TM) i5-8400 CPU @ 2.80GHz(2801 MHZ) 的 处 理 器 (6 核 )，8GB RAM, 
NVIDIA GeForce GTX 1050 Ti, 4095 MiB 。 软 件 : Microsoft Windows 10, Spyder 4.0.13, CUDA 
10.2, Python 3.7.6. 
4.2 并 行 加 速 结果 

以 图 像 分 块 处 理 为 例 ， 对 第 三 章 两 种 方法 进行 测 时 比较 ， 实 验 结果 如 下 表 2 所 示 。 

表 2 两 种 方法 处 理 时 间 


Table 2 Processing time of two methods 


Parallelization method Ha-band image block processing TiO-band image block processing 
average time (s) average time (s) 
CPU/GPU hybrid computing method 740.68 957.31 
Multi-process parallel acceleration method 157.76 203.32 


为 了 验证 代码 的 正确 性 ， 实 验 数据 选取 2020 年 6 月 6 日 NVST Ha 波段 的 观测 数据 10 组 ， 
每 组 选取 100 Wt (1028 x 1024 pixel)， 每 帧 采用 重 登 方式 分 割 成 9%6X96 pixel， 将 每 帧 相同 位 置 
对 应 的 子 块 合并 成 一 组 ， 划 分 为 625 组 子 块 组 。 实 验 数据 还 选取 2020 年 6 月 8 日 NVSTTiO W 
段 的 观测 数据 10 组 ， 由 于 受到 显存 大 小 的 限制 ， 每 组 选取 50 Wi (2160x2560 pixel)， 每 帧 采用 
EE 蕉 方式 分 制 成 128X128 pixel。 将 每 帧 相同 位 置 对 应 的 子 块 合 并 成 一 组 ， 划 分 为 1050 组 子 块 
He 
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实验 表明 , Ha 波段 和 TiO 波段 数据 在 采用 多 进程 并 行 加 速 方法 时 图 像 分 块 处 理 的 平均 处 理 
时 间 相 对 较 少 ， 采 用 多 进程 并 行 加 速 方法 在 Ha 波段 和 TiO 波段 数据 的 图 像 分 块 处 理 部 分 中 加 
速 比分 别 可 达 4.69 和 4.71。 通 过 大 量 实 验 结果 分 析 ， 由 于 在 CPU/GPU 混合 计算 方法 中 ， 子 块 
组 之 间 仍 然 是 串 行 计算 ， 使 得 GPU 一 次 只 能 处 理 单 组 分 块 数据 ， 而 在 多 进程 并 行 加 速 方法 中 ， 
子 块 组 之 间 是 并 行 计 算 ， 使 得 GPU 能 同时 处 理 多 组 分 块 数据 。 由 此 可 以 说 明基 于 多 进程 并 行 加 
速 方法 可 提高 CPU 和 GPU 资源 利用 效率 ， 可 显著 提升 图 像 分 块 处 理 的 速度 。 


a 


在 多 进程 并 行 加 速 方 法 中 ， 不 同 的 进程 数 有 不 同 的 图 像 分 块 处 理 时 间 如 图 3 所 示 。 
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图 3 图 像 分 块 处 理 在 不 同 进 程 数 下 的 耗 时 情况 


Figure 3 The time consuming of image block processing under different number of processes 

图 3 显示 不 同 的 进程 数 对 图 像 分 块 处 理 并 行 加 速 的 耗 时 情况 ， 随 着 进程 池 中 子 进程 数量 的 
增加 ，Ha 波段 的 所 有 子 块 处 理 的 时 间 降 低 到 157.76s，TiO 波段 的 所 有 子 块 处 理 的 时 间 降 低 到 
203.32s， 并 行 加 速 的 效果 明显 。 但 是 在 使 用 6 个 进程 以 后 ， 受 到 CPU 核心 数 、GPU 显存 大 小 
以 及 多 进程 调度 开销 的 影响 ， 图 像 分 块 处 理 时 间 会 上 下 浮动 并 呈现 上 升 的 趋势 。 在 选择 合适 的 
子 进程 后 ， 使 用 多 进程 并 行 加 速 方法 处 理 时 ，CPU 和 GPU 利用 率 都 提高 了 ，CPU 利用 率 可 以 
达到 100%. 
5 结语 

针对 现 有 方法 子 块 组 间 低 效 的 串 行 处 理 而 导 臻 CPU 和 GPU 利用 率 都 不 高 的 问题 ， 本 文 提 
出 了 基于 多 进程 并 行 加 速 太阳 高 分 辨 图 像 重建 的 方法 ， 利 用 多 核 和 多 进程 技术 ， 有 效 提升 了 
CPU/GPU 的 利用 率 和 重建 过 程 速 度 ， 其 研究 可 为 天 文 数 据 并 行 化 处 理 提 供 借 鉴 参考 。 要 进一步 
提高 CPU/GPU 的 并 行 化 程度 ， 仍 然 有 许多 吗 待 突破 的 关键 问题 ， 其 中 CPU 端 承 担 的 相位 递 推 
压力 最 大 , 耗费 图 像 分 块 处 理 过 程 80% 的 时 间 ， 下 一 步 将 考虑 基于 相位 递 推 的 特点 进行 并 行 化 ， 
同时 对 相关 算法 进行 优化 改进 ， 使 CPU/GPU 计算 负载 达到 均衡 ， 是 下 一 阶段 研究 的 重点 。 此 
外 ， 相 关 研 究 还 需要 在 MPI/GPU 异 构 环 境 中 进行 验证 。 
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on multi-process parallel acceleration 
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Abstract: At present, speckle interferometry and speckle masking are often used to reconstruct the 
mode and phase of the target in high-resolution solar image reconstruction. However, due to a large 
amount of grouped and partitioned data and the complexity of the algorithm, it is difficult to meet the 
requirements of real-time reconstruction. In order to alleviate the pressure of data processing, based on 
the existing CPU/GPU hybrid computing method of single block data, a method of allocating 
multi-component block data to GPU through multi-process and parallel processing is proposed. The 
experiment shows that the method based on a multi-process parallel acceleration method can improve 
the utilization efficiency of CPU and GPU resources, enable GPU to process multi-block data at the 
same time, and significantly improve the speed of image block processing with an acceleration ratio of 
about 4.7. Relevant studies can provide a reference for the parallel processing of astronomical data. 
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